home *** CD-ROM | disk | FTP | other *** search
/ 500 MB Nyheder Direkte fra Internet 2 / 500 MB nyheder direkte fra internet CD 2.iso / start / data / text / faq-1058.txt < prev    next >
Text File  |  1995-05-09  |  38KB  |  936 lines

  1. Archive-name: os-research/part2
  2. Version: $Revision: 1.20 $
  3. Last-Modified: $Date: 1995/02/03 14:32:46 $
  4.  
  5.         Answers to frequently asked questions
  6.           for comp.os.research: part 2 of 3
  7.  
  8.                Copyright (C) 1993--1995
  9.                Bryan O'Sullivan
  10.  
  11.  
  12.  
  13.               TABLE OF CONTENTS
  14.  
  15.  
  16. 1.     Available software
  17. 1.1.   Where can I find Unix process checkpointing and restoration packages?
  18. 1.2.   What threads packages are available for me to use?
  19. 1.3.   Where can I find operating systems distributions?
  20. 1.3.1. Distributed systems and microkernels
  21. 1.3.2. Unix lookalikes
  22. 1.3.3. Others
  23.  
  24. 2.     Performance and workload studies
  25. 2.1.   TCP internetwork traffic characteristics
  26. 2.2.   File system traces
  27. 2.3.   Modern Unix file and block sizes
  28. 2.3.1. File sizes
  29. 2.3.2. Block sizes
  30. 2.3.3. Inode ratios
  31.  
  32. 3.     Papers, reports, and bibliographies
  33. 3.1.   From where are papers for distributed systems available?
  34. 3.2.   Where can I find other papers?
  35. 3.3.   Where can I find bibliographies?
  36.  
  37. 4.     General Internet-accessible resources
  38. 4.1.   Wide Area Information Service (WAIS) and World-Wide Web (WWW) servers
  39. 4.2.   Refdbms---a distributed bibliographic database system
  40. 4.3.   Willow -- the information looker-upper
  41. 4.4.   Computer science bibliographies and technical reports
  42. 4.5.   The comp.os.research archive
  43. 4.6.   Miscellaneous resources
  44.  
  45. 5.     Disclaimer and copyright
  46.  
  47.  
  48. ------------------------------
  49. Subject: [1] Available software
  50. From: Available software
  51.  
  52. This section covers various software packages, operating systems
  53. distributions, and miscellaneous other such items which may be of
  54. interest to the operating systems research community.  If you have
  55. written, or know of, some software which you believe would be of
  56. fairly wide interest, please get in touch with the FAQ maintainer with
  57. a view to having a short spiel and availability information included
  58. here.
  59.  
  60. ------------------------------
  61. Subject: [1.1] Where can I find Unix process checkpointing and restoration packages?
  62. From: Available software
  63.  
  64. - [93-01-21-10-18.30] The Condor system is available via anonymous ftp
  65.   from ftp.cs.wisc.edu.  Condor works entirely at user level [no
  66.   kernel modifications required] but doesn't currently support
  67.   interprocess communication, signals, or fork().  Definitely worth a
  68.   look.
  69.  
  70. - Bennet S Yee implemented a `mostly portable' checkpoint and restore
  71.   package back around 1987.  When the programmer invokes the
  72.   checkpoint procedure, it saves the state to a file; when a second
  73.   process with the same program (but with different arguments) is
  74.   started which calls the restore procedure, it reads the old state
  75.   from the file.  Available via anonymous ftp from
  76.   play.trust.cs.cmu.edu:usr/bsy/pub/save_world.shar.Z.  This package
  77.   is known to work for Pmaxen, Sun4's, Sun3's, IBM RTs, and VAXen.
  78.   Porting it to a new architecture should be relatively simple -- look
  79.   at the README file.
  80.  
  81. ------------------------------
  82. Subject: [1.2] What threads packages are available for me to use?
  83. From: Available software
  84.  
  85. - [93-02-01-10-15.15] For DEC customers, versions of VMS after 5.5 and
  86.   Ultrix after 4.3 include bundled threads packages which implement
  87.   both DEC's proprietary CMA and draft 4 of IEEE Pthreads.
  88.  
  89. - SunOS 4.x provides, as standard, a lightweight process (lwp) library
  90.   which isn't compatible with anything else currently available;
  91.   Solaris 2.x comes with a threads library which is incompatible with
  92.   lwp as well as everything else.
  93.  
  94. - The POSIX / Ada-Runtime Project (PART) has made available an
  95.   implementation of draft 6 of the POSIX 1003.4a Pthreads
  96.   specification, which runs under SunOS 4.x; the current release is
  97.   version 1.20.  Available using anonymous ftp from
  98.   ftp.cs.fsu.edu:pub/PART.
  99.  
  100. - Another POSIX thread package is available via anonymous ftp from
  101.   sipb.mit.edu:pub/pthreads; it is based on draft 8 of the POSIX
  102.   thread standard.  It currently runs on NetBSD 0.9, FreeBSD 1.1,
  103.   Linux 1.0, Ultrix 4.2 for the DECstation, SunOS 4.1.3 for the SPARC,
  104.   and HP/UX 9.03 for the PA/RISC.  The latest version is 1.27 and
  105.   contains a thread safe stdio, malloc and free, and properly behaving
  106.   sleep, read, and write functions that only block the current thread,
  107.   not the process.  For more information, contact Christopher
  108.   Provenzano <proven@mit.edu>.
  109.  
  110. - Stephen Crane has written a `fairly portable' threads package,
  111.   which runs under Sun 3, Sun 4, MIPS/RISCos, Linux, and 386BSD.  It
  112.   is available via anonymous ftp from dse.doc.ic.ac.uk:rex/lwp.tar.gz,
  113.   with documentation in the same directory named lwp.ps.gz.
  114.  
  115. - QuickThreads is a toolkit for building threads packages, written by
  116.   David Keppel.  It is available via anonymous ftp from
  117.   ftp.cs.washington.edu:pub/qt-001.tar.Z, with an accompanying tech
  118.   report at ftp.cs.washington.edu:tr/1993/05/UW-CSE-93-05-06.PS.Z.
  119.   The code as distributed includes ports for the Alpha, x86, 88000,
  120.   MIPS, SPARC, VAX, and KSR1.
  121.   
  122. [DCE threads? cthreads? pthreads implementations? others?]
  123.  
  124. ------------------------------
  125. Subject: [1.3] Where can I find operating systems distributions?
  126. From: Available software
  127.  
  128. This section covers the availability of several well-known systems;
  129. the only criterion for inclusion of a system here is that it be of
  130. interest to some segment of the OS research community (commercial
  131. systems will be accepted for inclusion, so long as they are pertinent
  132. to research).
  133.  
  134. ------------------------------
  135. Subject: [1.3.1] Distributed systems and microkernels
  136. From: Available software
  137.  
  138. See part one of the FAQ for further information on some of the systems
  139. listed below.
  140.  
  141. - [93-03-31-22-49.53] ACE is the distribution, support and sales
  142.   channel for Amoeba.  `Due to overwhelming response from non-profit
  143.   organisations wishing to obtain Amoeba for their research
  144.   activities', VU is offering Amoeba 5.2 to research institutions for
  145.   more or less free (via ftp at no charge, or on tape for $500 on
  146.   Exabyte or $800 on QIC-24).  Amoeba currently supports 68020 and
  147.   68030-based VME board machines, as well at i386- and i486-based AT
  148.   PCs and Sun 3 and 4 machines.
  149.  
  150.   For further information on `commercial' Amoeba, you can contact ACE
  151.   by email at <amoeba@ace.nl>, by phone at +31 20 664 6416, or by fax
  152.   at +31 20 675 0389.  Universities interested in obtaining a license
  153.   should send mail to <amoeba-license@cs.vu.nl>, or fax to +31 20 642
  154.   7705.
  155.  
  156. - Chorus Systemes has special programmes for universities interested
  157.   in using Chorus.  For more information on the offerings available,
  158.   conditions, and other details, ftp to ftp.chorus.fr and get the
  159.   following ASCII files:
  160.     pub/README
  161.     pub/academic/README
  162.     pub/academic/offerings
  163.  
  164. - The Cronus object-oriented distributed system may be obtained via
  165.   ftp from pineapple.bbn.com; email <cronus-help@bbn.com> for
  166.   details of the account name and password.  Before attempting to get
  167.   the Cronus distribution, you must obtain, via anonymous ftp,
  168.   pineapple.bbn.com:Cronus-via-FTP-Terms.  Maintenance, hotline
  169.   support, and training for Cronus are available from BBN.  Send email
  170.   to the above address for information on these, or on obtaining a
  171.   commercial license.
  172.  
  173. - Horus is available for research use; contact Ken Birman
  174.   <ken@cs.cornell.edu> or Robbert van Renesse <rvr@cs.cornell.edu> for
  175.   details.
  176.  
  177. - Isis has not been publicly available since 1989, but may (I'm not
  178.   sure) still be obtained using anonymous ftp from ftp.uu.net or
  179.   ftp.cs.cornell.edu.  After 1989, the code was picked up by Isis
  180.   Distributed Systems, which has subsequently developed and supported
  181.   it.  The commercial version of Isis (available `at very low cost' to
  182.   academic institutions) is available from the company.  Email
  183.   <info@isis.com> for information, or call +1-212-979-7729 or
  184.   +1-607-272-6327.
  185.  
  186. - [92-09-19-08-55.18] Plan 9 is available to academic institutions on
  187.   CD-ROM; the distribution consists of around 350MB of source and
  188.   binaries.  For information on how to go about getting a license,
  189.   contact
  190.     Neera Kuckreja
  191.     AT&T Bell Laboratories
  192.     Room 2C-557
  193.     Murray Hill, NJ 07974
  194.     United States
  195.  
  196.     +1 (908) 582 3855
  197.     neera@research.att.com
  198.   As of September 1992, kernels existed for the Sun SLC, Sun4Cs of
  199.   various types, NeXTstations, MIPS Magnum 3000, SGI 4D series,
  200.   Gateway 486, AT&T Safari, `a whole bunch of' other PCs, and the
  201.   Gnot.
  202.  
  203.   Sydney University Basser Department of Computer Science has a port
  204.   of Plan 9 underway to the DEC Alpha at the moment.  A port to the
  205.   Sun 3 has been completed.  Contact <plan9info@cs.su.oz.au> for
  206.   details.
  207.  
  208.   The Plan 9 user mailing list may be subscribed to by sending mail to
  209.   <9fans-request@cse.psu.edu>.
  210.  
  211. - QNX is available for academic applications through an education
  212.   support programme run by QNX Software Systems, whereby QNX systems
  213.   can be obtained for educational purposes at very low cost.  For
  214.   commercial and education availability and pricing, contact:
  215.     QNX Software Systems        QNX Software Systems
  216.     175 Terrence Matthews Cr.    Westendstr. 19
  217.     Kanata, Ontario K2M 1W8        6000 Frankfurt am Main 1
  218.     Canada                Germany
  219.  
  220.     1 800 363 9001            +49 69 9754 6156 x299
  221.     +1 (613) 591 0931
  222.     +1 (613) 591 3579 (fax)        +49 69 9754 6110 (fax)
  223.   Versions after 4.2 of QNX run on the i386 and later processors, with
  224.   a 16-bit kernel included for i286 machines.  Native optimisations
  225.   and a compiler for the Pentium are also included.  Further marketing
  226.   information can be obtained on the World Wide Web from
  227.   http://www.www.qnx.com
  228.  
  229. - [93-02-07-16-03.48] The Sprite Network Operating System is available
  230.   on CD-ROM.  The disc contains the source code and documentation for
  231.   Sprite, a research operating system developed at the University of
  232.   California, Berkeley.  All the research papers from the Sprite
  233.   project are also included on the disc.  This software on this disc
  234.   is primarily intended for research purposes, and is not really
  235.   intended to be used as a production system.  Boot images are
  236.   provided for Sun SPARCstations and DECstations.  The CD-ROM is in
  237.   ISO-9660 format with Rock Ridge extensions.  The disc contains about
  238.   550 megabytes of software.
  239.  
  240.   You can get an overview of the Sprite Project, and a complete list
  241.   of what is on this disc, by anonymous ftp from
  242.   cdrom.com:pub/cdroms/sprite.
  243.  
  244.   If you would like a CD-ROM please send $25.  Add $4.95 if you would
  245.   like a caddy too.  S&H is $5 (per order, not per disc) for
  246.   US/Can/Mex, and $10 for overseas.  If you live in California, please
  247.   add sales tax.  You can send a check or money order, or you can
  248.   order with Mastercard/Visa/AmEx.
  249.     Bob Bruce <rab@cdrom.com>
  250.     Walnut Creek CDROM
  251.     1547 Palos Verdes Mall, Suite 260
  252.     Walnut Creek, CA 94596
  253.     United States
  254.  
  255.        1 800 786-9907 (USA only)
  256.       +1 510 947-5996
  257.       +1 510 947-1644 (fax)
  258.  
  259. - VSTa is a copylefted system written by Andrew Valencia
  260.   <vandys@cisco.com> which uses ideas from several research operating
  261.   systems in its implementation.  It is currently in an `experimental
  262.   but usable' state, and supports `lots of' POSIX, and runs on a
  263.   number of different PC configurations.  For further information,
  264.   send mail to <vsta-request@cisco.com>, or ftp to
  265.   ftp.cygnus.com:pub/embedded/vsta.
  266.  
  267. [Mach, Chorus, Clouds?, Choices?]
  268.  
  269. ------------------------------
  270. Subject: [1.3.2] Unix lookalikes
  271. From: Available software
  272.  
  273. - Linux is available via anonymous ftp from
  274.   tsx-11.mit.edu:pub/linux, ftp.funet.fi:pub/OS/Linux, and
  275.   sunsite.unc.edu:pub/Linux.  It is a freely-distributable System
  276.   V compatible Unix, and is covered by the GNU General Public License.
  277.   Linux runs on ISA bus PCs with i386 or better CPUs and at least 4
  278.   megabytes to run.
  279.  
  280. - 386BSD is available via ftp from agate.berkeley.edu:pub/386BSD or
  281.   ftp.uu.net:systems/unix/386BSD.  It lies mid-way between 4.3BSD Reno
  282.   and 4.4BSD internally, and contains no AT&T-copyrighted code.
  283.   386BSD runs on ISA bus PCs with i386 or better CPUs.
  284.  
  285. - NetBSD is available via ftp from agate.berkeley.edu:pub/NetBSD.
  286.  
  287. - FreeBSD is available via ftp from freebsd.cdrom.com:pub/FreeBSD,
  288.   ftp.cosy.sbg.ac.at:pub/mirror/FreeBSD, and
  289.   pdq.coe.montana.edu:pub/mirrors/unix/freebsd.
  290.  
  291. - The Hurd is the GNU operating system, being written by Michael
  292.   Bushnell.  It is based on Mach 3.0, and should be available on most
  293.   systems to which Mach has been ported.  A preliminary runnable image
  294.   may be fetched from alpha.gnu.ai.mit.edu:gnu/hurd-snap.tar.gz.
  295.  
  296. ------------------------------
  297. Subject: [1.3.3] Others
  298. From: Available software
  299.  
  300. [93-03-18-10-19.02] Microsoft is making sources of Windows NT
  301. available under license to universities and research laboratories.
  302. You should have the appropriate officials contact Mark Lewin
  303. <marklew@microsoft.com> to get started on this process.
  304.  
  305. See Patrick Bridges' operating systems home page at
  306. http://www.cs.arizona.edu/people/bridges/oses.html
  307. for information on a variety of other operating systems.
  308.  
  309.  
  310. ------------------------------
  311. Subject: [2] Performance and workload studies
  312. From: Performance and workload studies
  313.  
  314. This section covers various different publicly-available traces and
  315. studies, libraries and source distributions, which may be of use.
  316.  
  317. ------------------------------
  318. Subject: [2.1] TCP internetwork traffic characteristics
  319. From: Performance and workload studies
  320.  
  321. - [92-10-20-15-04.39] Peter Danzig and Sugih Jamin of USC have made
  322.   available a report and a source library which simulates realistic
  323.   day-to-day network traffic between nodes.  The library, tcplib, `is
  324.   motivated by our observation that present-day wide-area tcp/ip
  325.   traffic cannot be accurately modeled with simple analytical
  326.   expressions, but instead requires a combination of detailed
  327.   knowledge of the end-user applications responsible for the traffic
  328.   and certain measured probability distributions'.
  329.  
  330.   The technical report and the source library it describes are
  331.   available via anonymous ftp from
  332.   jerico.usc.edu:pub/jamin/tcplib.  All you need to transfer to
  333.   use the library are: README, brkdn_dist.h, tcpapps.h, tcplib.1, and
  334.   one of libtcp* that matches your setup.  You need tcplib.tar.Z only
  335.   if you must generate the library yourself.  The file tcplibtr.ps.Z
  336.   is the PostScript version of the report.  The authors may be
  337.   contacted at <traffic@excalibur.usc.edu>.
  338.  
  339. - [93-08-09-15-15.54] Vern Paxson of Lawrence Berkeley Laboratories
  340.   has a report available via anonymous ftp which describes analytic
  341.   models for wide-area TCP connections based upon a set of wide-area
  342.   traffic traces.  The report may be obtained from
  343.   ftp.ee.lbl.gov:WAN-TCP-models.{1,2}.ps.Z.
  344.  
  345. - [93-05-13-10-54.09] Vern Paxson also has made available another
  346.   report, ftp.ee.lbl.gov:WAN-TCP-growth-trends.ps.Z, which provides an
  347.   analysis of the growth trends of a medium-sized research
  348.   laboratory's wide-area TCP connections over a period of more than
  349.   two years.
  350.  
  351. ------------------------------
  352. Subject: [2.2] File system traces
  353. From: Performance and workload studies
  354.  
  355. - Chris Ruemmler has done a study on low-level disk access patterns
  356.   for a workstation, a server, and a time-shared system which appeared
  357.   in the Winter 1993 USENIX proceedings.  A copy may be obtained via
  358.   anonymous ftp from ftp.hpl.hp.com:wilkes/HPL-92-152.ps.Z.
  359.  
  360. - Stephen Russell <smr@cs.unsw.oz.au> has instrumented the SunOS 4.1.x
  361.   kernel running on Sun 3 machines.  The system allows time-stamped
  362.   event records to be obtained from various points in the kernel.
  363.   Events can be categorised (eg, paging, file system, etc), and are
  364.   read via pseudo-devices.  Ioctl calls allow substreams to be
  365.   enabled/disabled, buffer status checked, etc.  An external high
  366.   resolution timer is used for timestamping.
  367.  
  368. - [93-05-09-09-23.32] The traces used in `Measurements of a
  369.   distributed file system' (SOSP 1991) may be obtained via anonymous
  370.   ftp from sprite.berkeley.edu:pub/sosp-traces.  An accompanying
  371.   PostScript file, written by John H. Hartman
  372.   <jhh@sprite.berkeley.edu>, which describes the trace file format,
  373.   how to interpret the trace records, and other information may be
  374.   found in the above directory as sospTraces.ps.Z.
  375.  
  376. - [93-06-18-13-02.48] Hidehiro Ishii <ishii@tsl.cl.nec.co.jp> has
  377.   written a system which traces the NFS accesses seen by an NFS server
  378.   and calculates statistics based on such traces.  Contact the author
  379.   for details.
  380.  
  381. ------------------------------
  382. Subject: [2.3] Modern Unix file and block sizes
  383. From: Performance and workload studies
  384.  
  385. The following sections are lifted more or less verbatim from a number
  386. of traces which were co-ordinated and analysed by Gordon Irlam
  387. <gordoni@home.base.com>.  The numbers quoted below are based on Unix
  388. file size data for 12 million files, residing on 1000 file systems,
  389. with a total size of 250 gigabytes.
  390.  
  391. Further information may be obtained on the World Wide Web at
  392. http://www.base.com/gordoni/ufs93.html.
  393.  
  394. ------------------------------
  395. Subject: [2.3.1] File sizes
  396. From: Performance and workload studies
  397.  
  398. There is no such thing as an average file system.  Some file systems
  399. have lots of little files.  Others have a few big files.  However as a
  400. mental model the notion of an average file system is invaluable.
  401.  
  402. The following table gives a break down of file sizes and the amount of
  403. space they consume.
  404.  
  405.    file size       #files  %files  %files   disk space  %space  %space
  406. (max. bytes)                        cumm.         (Mb)           cumm.
  407.            0       147479     1.2     1.2          0.0     0.0     0.0
  408.            1         3288     0.0     1.2          0.0     0.0     0.0
  409.            2         5740     0.0     1.3          0.0     0.0     0.0
  410.            4        10234     0.1     1.4          0.0     0.0     0.0
  411.            8        21217     0.2     1.5          0.1     0.0     0.0
  412.           16        67144     0.6     2.1          0.9     0.0     0.0
  413.           32       231970     1.9     4.0          5.8     0.0     0.0
  414.           64       282079     2.3     6.3         14.3     0.0     0.0
  415.          128       278731     2.3     8.6         26.1     0.0     0.0
  416.          256       512897     4.2    12.9         95.1     0.0     0.1
  417.          512      1284617    10.6    23.5        566.7     0.2     0.3
  418.         1024      1808526    14.9    38.4       1442.8     0.6     0.8
  419.         2048      2397908    19.8    58.1       3554.1     1.4     2.2
  420.         4096      1717869    14.2    72.3       4966.8     1.9     4.1
  421.         8192      1144688     9.4    81.7       6646.6     2.6     6.7
  422.        16384       865126     7.1    88.9      10114.5     3.9    10.6
  423.        32768       574651     4.7    93.6      13420.4     5.2    15.8
  424.        65536       348280     2.9    96.5      16162.6     6.2    22.0
  425.       131072       194864     1.6    98.1      18079.7     7.0    29.0
  426.       262144       112967     0.9    99.0      21055.8     8.1    37.1
  427.       524288        58644     0.5    99.5      21523.9     8.3    45.4
  428.      1048576        32286     0.3    99.8      23652.5     9.1    54.5
  429.      2097152        16140     0.1    99.9      23230.4     9.0    63.5
  430.      4194304         7221     0.1   100.0      20850.3     8.0    71.5
  431.      8388608         2475     0.0   100.0      14042.0     5.4    77.0
  432.     16777216          991     0.0   100.0      11378.8     4.4    81.3
  433.     33554432          479     0.0   100.0      11456.1     4.4    85.8
  434.     67108864          258     0.0   100.0      12555.9     4.8    90.6
  435.    134217728           61     0.0   100.0       5633.3     2.2    92.8
  436.    268435456           29     0.0   100.0       5649.2     2.2    95.0
  437.    536870912           12     0.0   100.0       4419.1     1.7    96.7
  438.   1073741824            7     0.0   100.0       5004.5     1.9    98.6
  439.   2147483647            3     0.0   100.0       3620.8     1.4   100.0
  440.  
  441. A number of observations can be made:
  442.   - the distribution is heavily skewed towards small files
  443.   - but it has a very long tail
  444.   - the average file size is 22k
  445.   - pick a file at random: it is probably smaller than 2k
  446.   - pick a byte at random: it is probably in a file larger than 512k
  447.   - 89% of files take up 11% of the disk space
  448.   - 11% of files take up 89% of the disk space
  449.  
  450. Such a heavily skewed distribution of file sizes suggests that, if one
  451. were to design a file system from scratch, it might make sense to
  452. employ radically different strategies for small and large files.
  453.  
  454. The seductive power of mathematics allows us treat a 200 byte and a
  455. 2MB file in the same way.  But do we really want to?  Are there any
  456. problems in engineering where the same techniques would be used in
  457. handling physical objects that span 6 orders of magnitude?
  458.  
  459. A quote from sci.physics that has stuck with me: `When things change
  460. by 2 orders of magnitude, you are actually dealing with fundamentally
  461. different problems'.
  462.  
  463. People I trust say they would have expected the tail of the above
  464. distribution to have been even longer.  There are at least some files
  465. in the 1-2G range.  They point out that DBMS shops with really large
  466. files might have been less inclined to respond to a survey like this
  467. than some other sites.  This would bias the disk space figures, but it
  468. would have no appreciable effect on file counts.  The results gathered
  469. would still be valuable because many static disk layout issues are
  470. determined by the distribution of small files and are largely
  471. independent of the potential existence of massive files.
  472.  
  473. (It should be noted that many popular DBMSs, such as Oracle, Sybase,
  474.  and Informix, use raw disk partitions instead of Unix file systems
  475.  for storing data, hence the difficulty in gathering data about them
  476.  in a uniform way.)
  477.  
  478. ------------------------------
  479. Subject: [2.3.2] Block sizes
  480. From: Performance and workload studies
  481.  
  482. The last block of a file is normally only partially occupied, and so
  483. as block sizes are increased so too will the the amount of wasted disk
  484. space.
  485.  
  486. The following historical values for the design of the BSD FFS are
  487. given in `Design and implementation of the 4.3BSD Unix operating
  488. system':
  489.  
  490. fragment size   overhead
  491.    (bytes)        (%)
  492.       512         4.2
  493.      1024         9.1
  494.      2048        19.7
  495.      4096        42.9
  496.  
  497. Files have clearly gotten larger since then; I obtained the following
  498. results:
  499. fragment size   overhead
  500.    (bytes)        (%)
  501.       128         0.3
  502.       256         0.6
  503.       512         1.1
  504.      1024         2.5
  505.      2048         5.4
  506.      4096        12.3
  507.      8192        27.8
  508.     16384        61.2
  509.  
  510. By default the BSD FFS typically uses a 1k fragment size.  Perhaps
  511. this size is no longer optimal and should be increased.
  512.  
  513. (The FFS block size is constrained to be no more than 8 times the
  514.  fragment size.  Clustering is a good way to improve throughput for
  515.  FFS based file systems, but it doesn't do very much to reduce the not
  516.  insignificant FFS computational overhead.)
  517.  
  518. It is interesting to note that even though most files are less than 2K
  519. in size, having a 2K block size wastes very little space, because disk
  520. space consumption is so totally dominated by large files.
  521.  
  522. ------------------------------
  523. Subject: [2.3.3] Inode ratios
  524. From: Performance and workload studies
  525.  
  526. The BSD FFS statically allocates inodes.  By default one inode is
  527. allocated for every 2K of disk space.  Since an inode consumes 128
  528. bytes this means that by default 6.25% of disk space is consumed by
  529. inodes.
  530.  
  531. It is important not to run out of inodes since any remaining disk
  532. space is then effectively wasted.  Despite this allocating 1 inode for
  533. every 2K is excessive.
  534.  
  535. For each file system studied I worked out the minimum sized disk it
  536. could be placed on.  Most disks needed to be only marginally larger
  537. than the size of their files, but a few disks, having much smaller
  538. files than average, needed a much larger disk---a small disk had
  539. insufficient inodes.
  540.  
  541. bytes per   overhead
  542.   inode       (%)
  543.    1024      12.5
  544.    2048       6.3
  545.    3072       4.5
  546.    4096       4.2
  547.    5120       4.4
  548.    6144       4.9
  549.    7168       5.5
  550.    8192       6.3
  551.    9216       7.2
  552.   10240       8.3
  553.   11264       9.5
  554.   12288      10.9
  555.   13312      12.7
  556.   14336      14.6
  557.   15360      16.7
  558.   16384      19.1
  559.   17408      21.7
  560.   18432      24.4
  561.   19456      27.4
  562.   20480      30.5
  563.  
  564. Clearly, the current default of one inode for every 2K of data is too
  565. small.  Earlier results suggested that allocating one inode for every
  566. 5-6k was in some sense optimal, and allocating one inode for every 8k
  567. would only be 0.4% worse.  The new data suggests one inode for every
  568. 4k is optimal, and allocating one inode for every 8k would be 2.1%
  569. worse.
  570.  
  571. The analysis technique I used is very sensitive to even a few file
  572. systems with very small files.
  573.  
  574. The main source of file systems with lots of small files would appear
  575. to be netnews servers.  The typical Usenet message would appear to be
  576. 1-2k in length.  Ignoring such file systems would drastically alter
  577. the conclusions I reach.  If, as I believe might already be the case,
  578. news servers are manually tuned to have a lower than normal bytes per
  579. inode ratio, it would then be possible to justify setting the default
  580. ratio much higher.
  581.  
  582. Clearly it is best if the file system dynamically allocate inodes; I
  583. believe AIX does this for instance.  Systems that statically allocate
  584. inodes should probably increase the bytes per inode ratio, but it is
  585. not clear to exactly what value.  The engineer in me says `it is
  586. important to play this one conservatively: stick to 6k', the artist
  587. goes `as Chris Torek says: aesthetics, 8k'.
  588.  
  589.  
  590.  
  591. ------------------------------
  592. Subject: [3] Papers, reports, and bibliographies
  593. From: Papers, reports, and bibliographies
  594.  
  595. Network-available documents are listed in this section.  I'd like to
  596. see information for obtaining other sets of reports which aren't
  597. electronically-available included here as well, at some stage.
  598.  
  599. ------------------------------
  600. Subject: [3.1] From where are papers for distributed systems available?
  601. From: Papers, reports, and bibliographies
  602.  
  603. Amoeba
  604.     ftp.cs.vu.nl:amoeba
  605.     ftp.cse.ucsc.edu:pub/amoeba
  606.  
  607. Arjuna
  608.     arjuna.ncl.ac.uk:pub/Arjuna
  609.  
  610. Choices
  611.     choices.cs.uiuc.edu:Papers
  612.  
  613. Chorus
  614.     ftp.chorus.fr:pub/chorus-reports
  615.     cse.ogi.edu:pub/chorus/reports
  616.  
  617. Clouds
  618.     helios.cc.gatech.edu:pub/papers
  619.  
  620. Cronus
  621.     pineapple.bbn.com:doc
  622.  
  623. Guide
  624.     ftp.imag.fr:pub/GUIDE/doc
  625.  
  626. Horus
  627.     ftp.cs.cornell.edu:pub/Horus
  628.  
  629. Isis
  630.     ftp.cse.ucsc.edu:pub/bib/isis.bib
  631.     ftp.cs.cornell.edu:pub
  632.  
  633. Mach
  634.     mach.cs.cmu.edu:doc
  635.  
  636. Plan 9
  637.     plan9.att.com:plan9/plan9doc
  638.     http://www.ecf.toronto.edu/plan9
  639.     plan9.att.com:plan9/plan9man
  640.  
  641. Spring
  642.     http://www.sun.com/technology-research/spring
  643.  
  644. X kernel
  645.     cs.arizona.edu:pub/xkernel
  646.  
  647. Papers covering Amoeba, Choices, Chorus, Clouds, the Hurd, Guide,
  648. Mach, Mars, NonStop, and Plan 9 are also available via anonymous ftp
  649. from ftp.funet.fi:pub/doc/OS.
  650.  
  651. [I'd like to find the authoritative home for V---Mars and NonStop are
  652.  a bit more obscure, I think; they certainly aren't asked after much]
  653.  
  654. ------------------------------
  655. Subject: [3.2] Where can I find other papers?
  656. From: Papers, reports, and bibliographies
  657.  
  658. Angel
  659.     ftp.cs.city.ac.uk:papers
  660.  
  661. Mungi
  662.     ftp.vast.unsw.edu.au:pub/Mungi
  663.  
  664. KeyKOS
  665.     cs.dartmouth.edu:pub/sasos/papers/KeyKOS
  666.  
  667. QNX [93-09-19-22-22.26]
  668.     ftp.cse.ucsc.edu:pub/qnx
  669.     ftp.qnx.com:pub/papers
  670.  
  671. Solaris 2.x [93-02-23-12-12.43]
  672.     opcom.sun.ca:pub/docs/papers
  673.     opcom.sun.ca:pub/docs/solaris
  674.  
  675. Windows NT [92-09-18-11-46.16]
  676.     ftp.uu.net:vendor/microsoft/win32-api
  677.     ftp.uu.net:vendor/microsoft/isv-communications
  678.  
  679. ------------------------------
  680. Subject: [3.3] Where can I find bibliographies?
  681. From: Papers, reports, and bibliographies
  682.  
  683. Load balancing
  684.     ftp.cse.ucsc.edu:pub/bib/load-balancing.bib
  685.  
  686. Mobile computing
  687.     ftp.comp.lancs.ac.uk:pub/mpg
  688.  
  689. Multimedia operating systems [94-04-15-23-29.51]
  690.     cs.ucsd.edu:pub/multimedia
  691.     ftp.cse.ucsc.edu:pub/bib/mmos.bib
  692.  
  693. Object-oriented operating systems
  694.     ftp.cse.ucsc.edu:pub/bib/ooos.bib.Z
  695.     ftp.inria.fr:INRIA/bib/ooos.bib.gz
  696.  
  697. Parallel and distributed I/O
  698.     ftp.cse.ucsc.edu:pub/bib/io.bib
  699.  
  700. Recommended books
  701.     ftp.maths.tcd.ie:pub/bosullvn/comp.os.research/recommended.bib
  702.  
  703. Sprite network operating system
  704.     sprite.berkeley.edu:pub/sprite
  705.  
  706. See also the section on General Net Resources.
  707.  
  708. [There's quite a lot more at ftp.cse.ucsc.edu:pub/bib, if anyone
  709.  wants to add more to this list.]
  710.  
  711.  
  712.  
  713. ------------------------------
  714. Subject: [4] General Internet-accessible resources
  715. From: General Internet-accessible resources
  716.  
  717. This section contains information about a variety of services
  718. available to the OS research community via the Internet.
  719.  
  720. ------------------------------
  721. Subject: [4.1] Wide Area Information Service (WAIS) and World-Wide Web (WWW) servers
  722. From: General Internet-accessible resources
  723.  
  724. [92-09-21-16-38.23] Loughborough University high-performance
  725. networking and distributed systems archive may be accessed via World
  726. Wide Web at http://hill.lut.ac.uk/DS-Archive/.  This archive contains,
  727. according to Jon Knight <J.P.Knight@lut.ac.uk>, the organiser:
  728.  
  729. - Technical reports and papers written at LUT by the networks and
  730.   distributed systems researchers in the Department of Computer
  731.   Studies.
  732.  
  733. - Technical reports, papers and theses which have been produced at
  734.   other sites and then made available for public electronic access.
  735.  
  736. - Software which is of use in research or which has been produced by a
  737.   specific research project.
  738.  
  739. - Details of relevant conferences, collected from a variety of sources
  740.   (USENET, email, flyers, etc).
  741.  
  742. - Information on ongoing research projects.
  743.  
  744. - Bibliographies that have been generated for research at LUT and also
  745.   access to other WAIS indexed bibliographies, both at LUT and
  746.   elsewhere.
  747.  
  748. - A list of contacts in the field, with details of their research
  749.   interests.  This is entirely voluntary (i.e. people have agreed to
  750.   Jon entering their details rather than him just rooting round the
  751.   Internet to build up the information).
  752.  
  753. Carnegie Mellon University's computer science department has a home
  754. page for the Mach project at the following URL:
  755. http://www.cs.cmu.edu:8001/afs/cs.cmu.edu/project/mach/public/www/mach.html.
  756.  
  757. Bibliographies in the comp.os.research collection are accessible via
  758. WAIS from UCSC.
  759.     (:source 
  760.      :version  3 
  761.      :ip-address "128.114.134.19"
  762.      :ip-name "ftp.cse.ucsc.edu"
  763.      :tcp-port 210
  764.      :database-name "os-bibliographies"
  765.      :cost 0.00 
  766.      :cost-unit :free 
  767.      :maintainer "paul@cse.ucsc.edu"
  768.      :description "Server created with WAIS release 8 b5
  769.         on Jul 9 22:38:27 1992 by paul@cse.ucsc.edu
  770.         The files of type bibtex used in the index
  771.         were: /home/ftp/pub/bib"
  772.     )
  773.  
  774.  
  775. ------------------------------
  776. Subject: [4.2] Refdbms---a distributed bibliographic database system
  777. From: General Internet-accessible resources
  778.  
  779. [92-10-01-11-39.32] The 13th alpha release of refdbms version 3,
  780. developed by John Wilkes of the Concurrent Systems Project at
  781. Hewlett-Packard Laboratories and Richard Golding of the Concurrent
  782. Systems Laboratory at UC Santa Cruz, is now available.  It can be
  783. obtained by anonymous ftp from ftp.cse.ucsc.edu:pub/refdbms.  The
  784. system has been tested on Sun 3 and 4 systems running SunOS 4.1.x, and
  785. on DECstations running Ultrix 4.1.  It is an experiment in building
  786. weak-consistency wide-area distributed applications, and the databases
  787. currently available for the system have a good systems coverage.
  788.  
  789. The system includes tools to query the database, to produce
  790. bibliographies for LaTeX documents, and to enter new references into
  791. the database.  It is part of ongoing research into wide-area
  792. distributed information systems on the Internet.
  793.  
  794. Features include:
  795.  
  796. - Distributed databases: a reference database can be shared among
  797.   multiple sites.  Updates can be entered at any site, and will be
  798.   propagated to the other sites holding a replica of the database.
  799.  
  800. - Multiple databases: every database has a name, and users specify the
  801.   order in which databases will be searched.
  802.  
  803. - Private databases: databases can be private, available site-wide, or
  804.   they can be made available to other sites.
  805.  
  806. - Database query by keyword, author, and title word.
  807.  
  808. - Translator for refer-format databases.
  809.  
  810. - Usable with LaTeX documents: the internal refdbms format can be
  811.   translated into a special BibTeX format.
  812.  
  813. An up-to-date list of bibliographies exported by various institutions
  814. may be obtained using anonymous ftp from
  815. ftp.cse.ucsc.edu:pub/refdbms/current-databases.
  816.  
  817.  
  818. ------------------------------
  819. Subject: [4.3] Willow -- the information looker-upper
  820. From: General Internet-accessible resources
  821.  
  822. The University of Washington's Willow system provides a Motif-based
  823. user interface to a heterogeneous collection of on-line bibliographic
  824. databases.  It will compile and run on most systems which provide a
  825. Motif library.
  826.  
  827. For further information, see the Willow home page at
  828. http://www.cac.washington.edu/willow/home.html.
  829.  
  830.  
  831. ------------------------------
  832. Subject: [4.4] Computer science bibliographies and technical reports
  833. From: General Internet-accessible resources
  834.  
  835. - A collection of bibliographies in various fields of computer science
  836.   is available via anonymous ftp and the World Wide Web.  The
  837.   bibliographies contain about 260,000 references, most of which are
  838.   references to journal articles, conference papers or technical
  839.   reports.  The collection has been formed by using various freely
  840.   accessible services in the Internet (anonymous ftp, mailserver,
  841.   wais, telnet) and converting each bibliography into a uniform BibTeX
  842.   format.  It is organised in files containing references to a (more
  843.   or less) specific area within computer science.
  844.  
  845.   The database has been organised by Alf-Christian Achilles
  846.   <achilles@ira.uka.de>.  It may be accessed on the Web at
  847.   http://liinwww.ira.uka.de/bibliography/index.html, via ftp from
  848.   ftp.cs.umanitoba.ca:pub/bibliographies, and through a more
  849.   useful search mechanism on the Web at
  850.   http://glimpse.cs.arizona.edu:1994/bib.
  851.  
  852. - As part of the ARPA Electronic Library Project, the Database Group
  853.   at Stanford is providing a Selective Dissemination of Information
  854.   (SDI) service to disseminate information about computer science
  855.   technical reports.  You can have a server email you periodic
  856.   announcements of new papers on topics that interest you.
  857.  
  858.   See http://cs-tr.cs.cornell.edu/Info/cstr.html for details, or
  859.   contact Tak Yan <tyan@cs.stanford.edu> or the mail server itself at
  860.   elib@db.stanford.edu.
  861.  
  862.  
  863. ------------------------------
  864. Subject: [4.5] The comp.os.research archive
  865. From: General Internet-accessible resources
  866.  
  867. [93-02-18-21-18.31] An archive of all messages posted to
  868. comp.os.research since 1988 is maintained at UC Santa Cruz.  It may be
  869. accessed via anonymous ftp at
  870. ftp.cse.ucsc.edu:pub/comp.os.research.  The archive is organised
  871. by year.
  872.  
  873. Postings may also be found via WAIS at UCSC's Computer Science gopher
  874. hole:
  875.     (:source 
  876.      :version  3 
  877.      :ip-address "128.114.134.19"
  878.      :ip-name "ftp.cse.ucsc.edu"
  879.      :tcp-port 210
  880.      :database-name "comp-os-research"
  881.      :cost 0.00 
  882.      :cost-unit :free 
  883.      :maintainer "paul@cse.ucsc.edu"
  884.  
  885.      :description "Server created with WAIS release 8 b5
  886.         on Jul 9 03:51:11 1992 by paul@cse.ucsc.edu
  887.         The files of type netnews used in the index
  888.         were: /home/ftp/pub/comp.os.research"
  889.     )
  890.  
  891.  
  892. ------------------------------
  893. Subject: [4.6] Miscellaneous resources
  894. From: General Internet-accessible resources
  895.  
  896. - Paul Harrington <phrrngtn@dcs.st-andrews.ac.uk> maintains a World
  897.   Wide Web page on checkpointing, at
  898.   http://warp.dcs.st-and.ac.uk/warp/systems/checkpoint.
  899.  
  900.  
  901. ------------------------------
  902. Subject: [5] Disclaimer and copyright
  903. From: Disclaimer and copyright
  904.  
  905. Note that this document is provided as is.  The information in it is
  906. not warranted to be correct; you use it at your own risk.
  907.  
  908. Following recent reports on the <faq-maintainers> list I think it wise
  909. to change the copyright:
  910.  
  911. NOTICE OF COPYRIGHT AND PERMISSIONS
  912.  
  913. Answers to Frequently Asked Questions for comp.os.research (hereafter
  914. referred to as These Articles) are Copyright (C) 1993, 1994, and 1995
  915. by Bryan O'Sullivan <bosullvn@tcd.ie>.  They may be reproduced and
  916. distributed in whole or in part, subject to the following conditions:
  917.  
  918. - This copyright and permission notice must be retained on all
  919.   complete or partial copies of These Articles.
  920.  
  921. - These Articles may be copied or distributed in part or in full for
  922.   personal or educational use.  Any translation, derivative work, or
  923.   copies made for other purposes must be approved by the copyright
  924.   holder before distribution, unless otherwise stated.
  925.  
  926. - If you distribute These Articles, instructions for obtaining the
  927.   complete current versions of them free or at cost price must be
  928.   included.  Redistributors must make reasonable efforts to maintain
  929.   current copies of These Articles.
  930.  
  931. Exceptions to these rules may be granted, and I shall be happy to
  932. answer any questions about this copyright notice -- write to Bryan
  933. O'Sullivan, 14 Pleasant Drive, Mount Pleasant, Waterford, Ireland or
  934. email <bosullvn@tcd.ie>.  These restrictions are here to protect the
  935. contributors, not to restrict you as educators and learners.
  936.